A Microsoft és a Zhejiang Egyetem kutatói mesterséges intelligencia segítségével teremtenek élő beszédet. A leírt szöveg beszéddé alakításához mintegy 200 hangminta szándékoznak felhasználni - írja az Actual News.
A fejlesztők célja, hogy egy tökéletes programot hozzanak létre, ami képes a szöveget beszédhanggá konvertálni. A mesterséges intelligencia betanítása várhatóan sok időt vesz majd igénybe, valamint azt is el kell érni, hogy a hangzás természetes legyen. A program egyébként meglehetősen hasonlít a Google újszerű fejlesztésére, az azonnal tolmácsoló fordítóra.
Amikor a film hat vissza a kutatásokra
A program kialakítása részben a Transformers című filmben leírt módszeren alapul. A mély neurális hálózatok az agyi idegsejteket utánozzák, azonnal bemérik a beérkező és kimenő jeleket, segítve ezzel a hálózatot akár hosszú szekvenciák hatékony feldolgozásában is.
A program viszonylag egyszerűen épül fel, egy speciális algoritmus csökkenti és szűri a zajt. A beszéd létrehozása sok erőfeszítést már nem igényel, azonban az önálló, mesterséges élő beszéd létrehozása még várat magára. Még mindig vannak ugyanis robotszerű visszhangjai, ellenben a program képes pontosan megkülönböztetni, külön felismerni a szavakat, és éppen ebben rejlik a kutatás lényege.
Ez könnyíti meg ugyanis a szöveg-hang közötti átváltást. Mindemellett a kutatók olyan program fejlesztésén dolgoznak, amely lehetővé teszi a teljesen mesterséges úton létrehozott párbeszéd reprodukálását.